import pandas as pd

root_data_dir = "./data/"

# 分别读取训练集 验证集 测试集
train_data = pd.read_csv(root_data_dir + 'train.csv', sep='\t\t', header=None)
val_data = pd.read_csv(root_data_dir + 'val.csv', sep='\t\t', header=None)
test_data = pd.read_csv(root_data_dir + 'test.csv', sep='\t\t', header=None)

# 电影评论  正负评价（1，0）
train_data.columns = ['query', 'label']
val_data.columns = ['query', 'label']
test_data.columns = ['query', 'label']

# 将训练集、验证集和测试集的query列的内容合并到pretraining_data列表中。
pretraining_data = train_data['query'].tolist() + val_data['query'].tolist() + test_data['query'].tolist()

# 文件写入
with open('./working/pretraining_data.txt', 'w', encoding="utf-8") as f:
    for sent in pretraining_data:
        f.write("%s\n" % sent)
